iT邦幫忙

2022 iThome 鐵人賽

DAY 1
0
自我挑戰組

養爬蟲的人學爬蟲系列 第 1

【Day 1】 從0開始學習爬蟲!

  • 分享至 

  • xImage
  •  

關於我
哈囉!我是一個就讀資訊相關科系的大三生。
會來參加這個鐵人賽主要是因為必修課需要參賽,也想藉著這個特別的機會,挑戰自己的學習能力(笑)。

為什麼選擇爬蟲
在還沒接觸過任何資訊專業課程的時候,就聽說過爬蟲了。
但一直沒有好好的認識,想透過鐵人賽,好好來念爬蟲的相關內容。
也因為在系上比較沒有相關課程,想學只能靠自己(笑)。

爬蟲是什麼?
網路爬蟲是一種使用程式「自動抓取」資料的過程。
爬蟲可以收集、擷取各網站的資料,並且整理出各種格式。

參考書籍
這次鐵人賽主要會用到「矽谷工程師爬蟲手冊,用python成為進階高手」及「Python網路爬蟲,大數據擷取、清洗、儲存與分析,王者歸來」作為主要參考。
(之後的參考資料會補充在當天內容中)

參考資料
認識網路爬蟲 https://www.webscrapingpro.tw/what-is-web-scraping/

目錄
【Day 2】爬蟲第一步 ! 環境設定(Python、Visual Studio Code)
【Day 3】Python基本語法(常見資料型態
【Day 4】 Python 條件判斷、迴圈、其他
【Day 5】Python 函數(Function)
【Day 6】使用Python處理CSV文件(1/2)
【Day 7】使用Python處理CSV文件(2/2)
【Day 8】一起打開瀏覽器檢查看看吧!
【Day 9】第一個爬蟲函式庫-Requests
【Day 10】第一次資料清洗-Requests-HTML
【Day 11】認識Pandas模組
【Day 12】常出現的BeautifulSoup
【Day 13】不同的爬蟲種類
【Day 14】爬進PTT的網頁吧!(實戰PTT 1/3)
【Day 15】爬完這邊繼續爬!(實戰PTT 2/3)
【Day 16】把爬完的資料用JSON儲存吧!(實作PTT 3/3)
【Day 17】半個月以來的總結
【Day 18】動態網頁爬蟲-Selenium(1/2)
【Day 19】動態網頁爬蟲-Selenium(2/2)
【Day 20】帶上工具去Dcard去爬文(實戰Selenium 1/2)
【Day 21】在Dcard上自動向下捲動吧!(實戰Selenium 1/2)
【Day 22】認識並實作哈希值(hashlib模組)
【Day 23】不用帳號密碼也可以登錄Instagram嗎?(實戰Selenium 1/2)
【Day 24】將所有貼文都點讚吧!(實戰Selenium 1/2)
【Day 25】想在Discord自動留言嗎?
【Day 26】用Postman儲存或測試API
【Day 27】Google API與爬蟲
【Day 28】什麼是反爬蟲?
【Day 29】反爬蟲技術初步認識
【Day 30】終於完賽啦!這30天以來的感想


下一篇
【Day 2】爬蟲第一步 ! 環境設定(Python、Visual Studio Code)
系列文
養爬蟲的人學爬蟲30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中
0
zoeke9011
iT邦新手 5 級 ‧ 2022-09-23 17:25:17

跑來加油了!gogo!

0
dylan332
iT邦新手 5 級 ‧ 2023-03-01 16:59:48

特別註冊帳號留言 感覺這個是抄別人的作業
有些關鍵字打錯 有些地方修改沒改對
甚至有些程式碼 變數打錯 根本不能跑
建議想學習的人 看別人寫的學比較快

我要留言

立即登入留言